Open Source Processing

Chaos Communication Congress '97
Hamburg, Eidelstedter Bürgerhaus, 27. - 29.12.1997

[an error occurred while processing this directive]

Open Source Processing

Geheimdienst zum Selbermachen

Referent: Frank Rieger

Der Begriff "Open Source Processing" lΣ▀t sich am einfachsten mit "Verarbeitung von Daten, die ÷ffentlich zugΣnglich sind" beschreiben. Dabei entstehen erst durch eine sinnvolle Filterung und Aufbereitung Informationen. Werden Informationen so weit aufbereitet, da▀ sie entscheidungsrelevant werden, kann man von Botschaften oder englisch von Intelligence sprechen. Geht man von den einzelnen Daten aus, so lΣ▀t sich durch 7 W-Fragen (Wer?, Was?, Wann?, Wo?, Mit wem?, Warum? und Womit?) ein Ereignis ziemlich exakt beschreiben (der Referent, in der ehemaligen DDR aufgewachsen, sprach von den "7 Stasi-Fragen"). Dabei k÷nen die verschiedensten Formen von "Open Sources" genutzt werden, z.B. Bibliotheken, deklassifizierte Daten, Zeitschriften und Zeitungen, kommerzielle Informationsdienste und Datenbanken, CD-ROMs und das Internet.

Diese Informationsquellen werden nicht nur von Privatleuten genutzt; so ziehen z.B. die Geheimdienste ca. 80% Ihrer Informationen aus offenen Quellen. Diese werden dann weiterbearbeitet, und erst durch den Gewinn an Informationsinhalt geh÷ren sie dann zu den Geheimdaten. Man geht davon aus, da▀ der gr÷▀te Teil der Geheiminformationen der Geheimdienste aus Zeitungsausschnittsammlungen besteht. "Altbundeskanzler Schmidt hielt die 'Neue Zⁿrcher Zeitung' fⁿr aktueller und akurater als BND-Lageinformationen", wie Frank Rieger meinte.

Durch den rapiden Preisverfall bei Computerleistung und Speichermedien ist es jetzt auch jedem Privatmenschen m÷glich, eine gro▀e Menge an Daten zusammenzufⁿhren und nach pers÷nlich relevanten Kriterien zu verarbeiten, dabei fa▀t eine 4 GB-Platte eine Volltext-Datenbank von 1 Million Seiten.

Eine m÷gliche Anwendung hierzu wurde am Rechner demonstriert, indem die Daten der CD-ROM "D-Info" mit denen der CD "Gewu▀t wo!", einem Branchenverzeichnis fⁿr bestimmte Gro▀rΣume, in diesem Fall die Stadt Berlin, zusammengefⁿhrt wurden und so zu jeder Berliner Adresse eine geographische Koordinate ermittelt wurde. Aus den 1,3 Millionen Telefonteilnehmern Berlins konnte so ein "telefonischer Stadtplan" erstellt werden, in dem die verschiedensten Suchen m÷glich sind:

Telefonvermittlungsstellenbezirke
die Bev÷lkerungsdichte, bzw. bei bekannter Bev÷lkerungdichte schlechter situierte Randgebiete
Stadtviertel mit einem hohen AuslΣnderanteil (Suche nach auslΣndischen Vornamen/Namen)
wenig besiedelte Gebiete mit einem hohen Anteil an Frauen als Telefonanschlu▀inhaberinnen
Standorte fⁿr Existenzgrⁿndungen
Suchen nach nicht-gelisteten Telefonnummern, dabei ist eine Eingrenzung auf wenige Stra▀en ist meist m÷glich, in lΣndlichen Gebieten manchmal sogar eine Eingrenzung auf das einzelne Haus...

Eine Verknⁿpfung mit weiteren Datenquellen (Newsgroups, Homepages mit Foto, T-Online-Kennung) erm÷glicht zu identifizierten Personen dann eine Erstellung eines Personenprofils. Wenn man verschieden alte Daten miteinander vergleicht, kann man mit verschiedenen Ausgaben der "D-Info" z.B. schon Aussagen ⁿber Migrationen und VerΣnderungen der sozialen Struktur erhalten.

Fⁿr die pers÷nliche Nutzung kann man sich zum Beispiel im Internet umschauen, wo man eher das Problem hat, da▀ die Informationsmenge zu gro▀ ist und sie nur mit gro▀em Aufwand auf ein sinnvolles Ma▀ reduziert werden kann. Man kann problemlos personenbezogene Informationen, Produkt- oder Firmen-Informationen beschaffen. Einige Internet-Dienste bieten auch Informationsprocessing an, so liefert z.B. Paperboy automatisch generierte Pressespiegel des Tages und deckt dabei 90% der deutschen Zeitungen ab.

Sucht man Informationen ⁿber Personen und deren Interessensgebiete, so hilft eine Abfrage bei Deja News. Wenn man auf komerzielle Datenbanken oder Informationsdienste zugreift, so hat man meist eine geradezu kryptische BenutzeroberflΣche und zahlt gelegentlich gutes Geld fⁿr Informationen, die anderswo kostenlos erhΣltlich sind. Au▀erdem geht man hier das Risiko ein, da▀ die Abfragen in Abfrageprofilen ausgewertet werden.

Bei allen Informationen, die man sich beschafft, hat man aber immer gewisse Probleme, und zwar zunΣchst die Bewertung der Glaubwⁿrdigkeit:

Ist die Quelle bekannt?
Gab es aus dieser Quelle schon Fehlinformationen?
Besteht die Gefahr einer gezielten Desinformation?
Wie sind die Eigentums- und Einflu▀verhΣltnisse bei der Quelle?
Wie aktuell sind die Daten (gerade CD-ROMs sind oft schon veraltet, wenn sie auf dem Markt sind)?
Hat man parallele Quellen zur ▄berprⁿfung?
Sind die Daten vollstΣndig?

Bei der Archivierung der Daten kommen dann die nΣchsten Probleme: Die Datenmengen und Informationsvielfalt macht kooperatives Arbeiten mehrerer Personen notwendig. Eine sinnviolle Indexierung ist schwierig; die InformationsqualitΣt lΣ▀t sich nicht aus der Anzahl der verwendeten Quellen ableiten. Der Flu▀ der Aufbereitung (Data -> Information -> Intelligence) mu▀ beherrscht werden.

Insgesamt wurde gezeigt, da▀ sich heutzutage sehr genaue Informationssammlungen auch von Privatleuten mit vertretbar geringem Aufwand erzeugen lassen. Deshalb mu▀ man auch mit seinen eigenen Daten entsprechend bewu▀t umgehen, da Firmen die verfⁿgbaren Informationsquellen in jedem Fall auswerten - ganz zu schweigen von den Geheimdiensten.

Derk Marko Reckel

[ Start | Inhalt | Impressum | Hinweise | Fahrplan ]

Veröffentlichung ausdrücklich erwünscht, Belegexemplar erbeten.